Progressi
nel riconoscimento di identità ed emozioni nelle voci umane
LORENZO L. BORGIA
NOTE E
NOTIZIE - Anno XIX – 29 ottobre 2022.
Testi pubblicati sul sito www.brainmindlife.org della Società Nazionale
di Neuroscienze “Brain, Mind & Life - Italia” (BM&L-Italia). Oltre a notizie
o commenti relativi a fatti ed eventi rilevanti per la Società, la sezione
“note e notizie” presenta settimanalmente lavori neuroscientifici selezionati
fra quelli pubblicati o in corso di pubblicazione sulle maggiori riviste e il cui
argomento è oggetto di studio dei soci componenti lo staff dei recensori della Commissione
Scientifica della Società.
[Tipologia del testo: RECENSIONE/AGGIORNAMENTO]
Il mistero
della voce è suggestivo: pensiamo che
fin dal
grembo di nostra madre impariamo a
riconoscere
la sua voce e quella del papà…
[Papa
Francesco]
La voce dell’uomo è l’apologia della musica.
[Friedrich
Nietzsche]
Nulla altera le qualità materiali della voce
quanto il fatto di contenere il pensiero.
[Marcel
Proust]
Due nuovi
studi di applicazione tecnologica delle conoscenze neuroscientifiche sul
riconoscimento dell’identità dalla voce e, soprattutto, dell’affettività e
delle emozioni che esprime, hanno suggerito questo aggiornamento che, non
potendo prescindere dall’attualità della nuova acquisizione da me proposta nel
gennaio di quest’anno, sarà preceduto dalla riproposizione del testo di quella
recensione[1].
Ho ritenuto opportuno riprodurre anche le tre citazioni di esergo del Papa, di
Nietzsche e di Proust perché sono più che mai aderenti ai nuovi contenuti. La
realizzazione di una coclea artificiale ispirata alla neurobiologia di quella
naturale e basata su memristors da parte di Lingli Cheng e colleghi, e soprattutto lo sviluppo da parte
di Dongxu Yang di un sistema che consente a un Robot di
riconoscere le emozioni degli interlocutori dalla voce, saranno più avanti
oggetto di recensione, ma ora ripartiamo da un ricordo che ci introduce all’argomento
attraverso l’esperienza vissuta.
Eravamo in una
delle librerie più frequentate di Firenze per la sua attività convegnistica, il
presidente della nostra società scientifica ed io, quando sentimmo distintamente
alle nostre spalle pronunciare in inglese con accento newyorkese una breve
frase con una timbrica vocale che ci era cara e familiare. Ci siamo guardati
negli occhi, sospesi per un istante – e dopo ci siamo comunicati che nella
nostra mente sono passati gli stessi ricordi – ma nessuno dei due si è voltato
per guardare chi fosse, perché sapevamo che non poteva essere lui, per un’infinità
di ragioni o, meglio, per una sola ragione che metteva a tacere tutte le altre:
Gerald Edelman era morto il 17 maggio del 2014.
Cercando di
razionalizzare, ci siamo detti che gli indici acustici delle frequenze adottati
dal nostro cervello per il riconoscimento della voce dell’autore della teoria
della selezione dei gruppi neuronici dovevano essere molto simili a quelli
appena uditi o che, semplicemente, avevamo una memoria non così finemente
discriminata e, dunque, le frequenze timbriche di una laringe di un uomo di
mezza età associate alla dinamica fonoarticolatoria
tipica dell’accento prosodico di New York, possono averci ingannato. Ma nella
vita di tutti i giorni, nella massima parte dei casi e per la maggior parte
delle persone, il riconoscimento vocale avviene senza errori, e rappresenta una
delle più sorprendenti tra le abilità basate sulla fisiologia percettiva
naturale. Introducendo questo argomento così si esprimeva il nostro presidente una
decina d’anni or sono:
“La capacità
di evocazione della voce umana costituisce uno dei capitoli più suggestivi,
affascinanti e complessi del rapporto tra percezione ed esperienza psichica. Ciò
che può essere evocato da poche centinaia di millisecondi di stimoli acustici
alle giuste frequenze sonore, in alcuni casi sembra avere le dimensioni di un vero
e proprio mondo e, molto spesso, attiene ad una tranches de vie in cui l’identità
del soggetto della voce ha avuto un ruolo, un peso o un’influenza nella vita
affettiva, emotiva, cognitiva o lavorativa di chi ascolta, magari per la
frequentazione assidua di un periodo o per veri e propri rapporti di parentela,
amicizia o colleganza. È sufficiente un breve ascolto perché si abbia il riconoscimento
della voce e la simultanea attualizzazione dei contenuti associati nel
nostro cervello: l’udito ha portato il codice dell’identità del
parlante nel cuore delle memorie autobiografiche di chi ascolta, dove ha agito
come una chiave che ha aperto la sua specifica serratura di
contenuti psichici, costituiti da stati funzionali delle reti neuroniche
cerebrali.
Il processo di
riconoscimento identitario legato alla voce è ordinariamente integrato dalla
percezione del tono affettivo-emozionale del parlante, che rivela una particolare
efficacia discriminativa quando si tratti di una persona cara o bene conosciuta
dall’ascoltatore. Questo aspetto non deve essere sottovalutato perché, se è
vero che in generale questa abilità non meraviglia in quanto ha una lunga
storia filogenetica, rivelata dalla capacità del cane di riconoscere gli
elementi di ostilità all’ascolto vocale svelata da un correlato nel nucleo
accumbens, nella realtà umana costituisce un cardine di processi alla base del
rapporto psicologico con l’altro, dalla genesi di conflittualità alle
manifestazioni di empatia”[2].
Non solo la
capacità umana di identificare voci conosciute in vari esperimenti si è mostrata
superiore a quella di sofisticati softwares sviluppati sull’analisi
spettrografica di sintetizzatori vocali, ma un’abilità simultanea in questo
processo del cervello umano è data dalla capacità di riconoscere lo stato
affettivo o la particolare emozione che può modulare la parola, ossia
quell’atto locutorio che Fernand De Saussure definiva esecuzione individuale
della lingua che accomuna i parlanti. Con un brevissimo ascolto anche un
bambino è in grado di riconoscere tra tante voci quella di un compagno di
scuola, di un’insegnante, di una zia o di una vicina di casa e, anche da una
sola parola sapere se è allegra, preoccupata o adirata[3].
Nonostante i numerosi studi condotti per decifrare le basi neurofunzionali di
queste abilità e alcuni risultati significativi, il modo in cui il cervello
elabora la voce non è stato ancora definito; in particolare, non c’è accordo
fra i ricercatori circa il modo esclusivo per la voce o comune ad
altri stimoli acustici del processing dei segnali che da una laringe
umana giungono all’area 41 di Brodmann della corteccia temporale del ricevente,
con la mediazione di orecchio esterno e medio, coclea e vie acustiche.
Un nuovo
studio, condotto da Yang Zhang e colleghi, ha identificato un’organizzazione
gerarchica di reti corticali dedicate all’elaborazione della voce, che segue un
criterio funzionale simile a quello del sistema identificato nella corteccia visiva
dei primati per l’elaborazione dei volti. Lo studio qui recensito è di notevole
rilievo neuroscientifico perché non indica soltanto correlati neurofunzionali
di un processo legato a un particolare canale percettivo, ma fornisce un
contributo a quel mosaico di nozioni che sta delineando un modo più generale di
organizzazione funzionale del cervello per l’attribuzione di valori di identità
e significato a elementi quali i volti e le voci[4].
La voce
per gli antichi era metonimia del logos, infatti Plutarco dice che
cercare la virtù nelle persone male educate è come cercare la voce nei pesci.
La cultura
antica ci aiuta a comprendere quanto la voce sia stata importante nella realtà
umana e non solo per l’uso che ne facevano i retori e, a loro imitazione, avvocati,
politici e capi militari, ma anche per il ruolo di veicolo sui generis
del pensiero, ben distinto dalla parola scritta. Euripide nella gara con
Eschilo si vanta che i suoi spettatori avevano imparato a parlare assistendo
alle rappresentazioni delle sue opere[5].
Ma il merito non poteva attribuirsi esclusivamente ai testi, perché erano state
le voci degli attori a imprimersi nella mente degli ascoltatori, e il registro
timbrico degli interpreti era rimasto indelebilmente legato alla calibratura
dei pensieri, tanto nel loro senso logico quanto nel loro valore affettivo. Di
ciò è ben consapevole William Shakespeare, padre riconosciuto dai contemporanei
dell’inglese moderno, non per aver scritto trattati di grammatica, ma per
essere stato interpretato dalla valentia delle voci di attori capaci di rendere
tutte le sfumature, le sottigliezze, le profondità, i doppi sensi, le intensità
dei sentimenti e dei ragionamenti di copioni che sono diventati modello di lingua,
pensiero e cultura.
Se Nietzsche valorizzava
così tanto le modulazioni della voce da considerarle “apologia della musica”,
il grande musicista Richard Strauss, riprendendo la metonimia di senso che nell’attività
vocale comprende tutto il linguaggio-pensiero che vi sono connessi, riconosce
che la voce umana possa essere il più bello degli strumenti ma, in senso
proprio, rimane il più difficile da suonare bene.
Probabilmente,
proprio questo intimo rapporto – testimoniato dalla cultura – tra la voce e
tanti aspetti differenti della psiche umana, è all’origine di una codifica cerebrale
della voce umana tanto efficiente ma altrettanto difficile da decifrare. È ragionevole
supporre che il legame fra i caratteri acustici dell’esecuzione locutoria e i
suoi valori di senso si sia evoluto con tutto l’encefalo, così da consentire
quelle straordinarie prestazioni di riconoscimento di identità e attribuzione
di qualità affettivo-emotiva che appartengono alla nostra esperienza
quotidiana.
Per indagare
in vivo i meccanismi di elaborazione cerebrale dell’informazione uditiva
prodotta dall’ascolto della voce umana, Yang Zhang e colleghi hanno registrato
segnali elettrocorticografici provenienti da elettrodi intracranici
impiantati a fine terapeutico nel cervello di pazienti affetti da disturbi
epilettici, mentre questi volontari prestavano ascolto a 6 differenti categorie
di voci e, per confronto di controllo, a suoni classificati come “non vocali”,
ovvero frequenze acustiche provviste di alcuni tratti comuni con i suoni della
voce umana ma scientificamente differenti nei connotati percettivi.
L’esame dei
tracciati registrati ha subito fatto rilevare che alcune sub-regioni del
lobo temporale mostravano preferenze per distinti stimoli vocali. A tali
circoscritti territori di corteccia è stata attribuita la denominazione di “chiazze
vocali” (voice patches)[6].
Le analisi di
latenza hanno suggerito una doppia organizzazione gerarchica delle chiazze
o tasselli vocali della corteccia del lobo temporale. I ricercatori
hanno poi accertato che le aree circoscritte di sensibilità alla voce erano
funzionalmente connesse, sia quando il soggetto era impegnato nel compito
sperimentale, sia quando il suo cervello era in apparente stato di riposo.
Un’altra
osservazione rilevante, derivata dallo studio dei tracciati
elettrocorticografici, è che le aree motorie di sinistra erano co-attivate
e correlate con le chiazze vocali del lobo temporale durante il
compito di ascolto di suoni.
L’insieme dei
dati rilevati, per il cui dettaglio si rinvia alla lettura integrale del testo
del lavoro originale, rivela un’organizzazione in reti corticali gerarchiche
nel cervello umano per l’elaborazione della voce dei propri simili.
Fin qui l’articolo
in cui si propone l’identificazione da parte di Yang Zhang e colleghi della
base dell’elaborazione delle informazioni contenute nella voce, ora passiamo ai
due approdi tecnologici le cui molteplici applicazioni, soprattutto di
carattere medico, possono facilmente essere intuite.
Lingli Cheng e
colleghi presentano una coclea artificiale basata su un modello di filtri
realizzato in precedenza e configurato con memristors,
in cui un filtro emula un canale. Per dimostrare l’efficacia di questa coclea
per applicazioni sistemiche, i ricercatori l’hanno impiegata per estrarre gli elementi-segnale
del discorso e combinare l’estrazione con una rete neurale artificiale convoluzionale per il riconoscimento del Free Spoken Digit Dataset. La precisione del riconoscimento
raggiungeva il 92% con 64 canali[7].
(Cheng L.
et al., A bioinspired configurable cochlea based on
memristors. Frontiers in Neuroscience – Epub ahead of print doi: 10.3389/fnins.2022.982850.eCollection, 2022).
La provenienza degli autori è prevalentemente la seguente: Key Laboratory of Microelectronic Devices and
Integrated Technology, Institute of Microelectronics, Chinese Academy of
Sciences, Beijing (China); Frontiers Institute of Chip and System, Fudan
University, Shanghai (China); School of Integrated Circuits, University of
Chinese Academy of Sciences, Beijing (China).
La sensibilità di questa nuova coclea artificiale
realizzata da Lingli Cheng e colleghi è tale da accrescere di molto la capacità di
riconoscimento delle voci da parte di robot neuromorfici
e di conferire a questi automi abilità di reazione prossime a quelle umane. Ed
è proprio sulla realizzazione di un robot di servizio basato sul riconoscimento
delle emozioni delle persone che interagiscono con lui, che è centrato il
lavoro di Dongxu Yang.
Un robot può
migliorare la propria capacità di comprendere gli stati affettivo-emozionali
delle persone con le quali interagisce se gli si aggiungono funzioni di
riconoscimento delle emozioni nel discorso udito, ossia nella parola umana,
oltre che sistemi di monitoraggio dell’ambiente. I robot possono offrire servizi
più umanizzati adattandosi alle emozioni umane, con il risultato di ottenere un’interazione
uomo/macchina più cordiale, confortevole – per usare le parole dell’autore
dello studio – o, semplicemente, più soddisfacente.
(Dongxu Yang, Design of Service Robot
Based on User Emotion Recognition and Environmental Monitoring. Journal Environmental
Public Health – Epub ahead of print doi: 10.1115/2022/3517995.eCollection, 2022).
La provenienza dell’autore è la seguente: Department of Product Design, School of Art and
Design, Henan University of Urban Construction, Pingdingshan
(Cina); Department of Industrial Design, Graduate
School, Keimyung University, Daegu (Repubblica di Corea).
Al fine di consentire al robot di ottenere una
prestazione di interazione computer-essere umano fluida, appropriata ed
efficiente, l’autore dello studio ha definito un modello di “sentiment analysis” e un sistema di dialogo a dominio aperto
adattabile per service robots. In tal modo
avviene un’analisi delle emozioni esperite dagli “oggetti” mentre questi
conversano. Secondo i risultati del test, il metodo di classificazione usato in
questo studio risulta più accurato sul dataset del modello convenzionale, e il
valore finale ottenuto indica una maggiore abilità nell’identificazione di uno
stato emozionale. L’uso di tutti i campioni di voci come contenuto di input
della rete era in grado di eliminare la confusione tra emozioni neutre ed
emozioni qualitativamente specificate, amplificando la precisione nell’analisi
del sentimento enormemente rispetto ai metodi finora adottati.
In conclusione, i tratti, gli indici e i caratteri che
mutano nella voce durante la pronuncia di parole e discorsi per effetto di
differenti stati emozionali, costituiscono finora gli elementi più affidabili
per consentire a manufatti di intelligenza artificiale di andare oltre la
comprensione del contenuto semantico e logico di un messaggio e percepire aspetti
qualitativi e accenti dell’affettività umana.
L’autore della nota ringrazia
la dottoressa Isabella Floriani per la correzione della bozza e invita alla lettura delle
recensioni di
argomento connesso che appaiono nella sezione “NOTE E NOTIZIE” del sito
(utilizzare il motore interno nella pagina “CERCA”).
Lorenzo L. Borgia
BM&L-29 ottobre
2022
________________________________________________________________________________
La Società Nazionale di Neuroscienze BM&L-Italia, affiliata alla International
Society of Neuroscience, è registrata presso l’Agenzia delle Entrate di
Firenze, Ufficio Firenze 1, in data 16 gennaio 2003 con codice
fiscale 94098840484, come organizzazione scientifica e culturale non-profit.
[1] Note e Notizie 22-01-22 Reti
corticali di tasselli vocali per riconoscere identità ed emozioni delle voci.
[2] Giuseppe Perrella, Riconoscimento
di identità e stato affettivo-emozionale dalla voce – relazione al seminario
su Effetti della percezione acustica e della musica sul cervello, p. 1,
BM&L-Italia, Firenze 2012.
[3]
Il riferimento è a vecchi
esperimenti che si conducevano escludendo il riconoscimento vocale di genitori,
fratelli ed altri parenti conviventi che si adottava
[4] Zhang Y., et al., Hierarchical
cortical networks of “voice patches” for processing voices in human brain. Proceedings of the National Academy of Sciences USA 118 (52): e2113887118, December
28, 2021. Per gli istituti di provenienza degli autori
si veda Note e
Notizie 22-01-22 Reti corticali di tasselli vocali per riconoscere identità ed
emozioni delle voci.
[5] Il fatto è notorio, ma è
opportuno ricordarne la menzione e il commento di Nietzsche, che lo ha reso
nuovamente attuale a partire dal XIX secolo (Friedrich Nietzsche, Nascita della
Tragedia, p. 77, Adelphi, Milano 2000).
[6] Si è preferita questa traduzione
(tra i più comuni significati di patch: toppa, pezza e chiazza) perché
adottata in altri casi da altri autori italiani. Il nostro presidente
preferisce una traduzione più libera, ma che forse rende meglio in italiano il
concetto di “parte circoscritta” che compone un insieme, ossia tassello
o tessera di mosaico.
[7] Compatibile con il tradizionale metodo
basato sul mel-frequency cepstrum, per il
quale si ricorda: nell’elaborazione del suono il cepstrum
(il risultato della trasformata di Fourier applicata allo spettro in decibel di
un segnale) a frequenza mel è una rappresentazione dello spettro di
potenza a breve termine di un suono, basato su una trasformata del coseno
lineare di uno spettro di potenza logaritmica su una scala di frequenza mel non
lineare.